In questo modulo, ci spostiamo dal paradigma tradizionale del fine-tuning basato sui pesi al mondo dinamico dell' apprendimento in contesto (ICL). Esploriamo come i grandi modelli linguistici (LLM) raggiungano la padronanza delle attività non modificando la loro architettura interna, ma sfruttando la struttura stessa del prompt per navigare spazi latenti complessi.
1. Dall'insegnamento alla dimostrazione
Mentre un'istruzione fornisce una direzione generica, l'"imitazione" attraverso coppie input-output $(x, y)$ agisce come guida non parametrica. Questi esempi fungono da ancoraggi statistici che restringono la distribuzione di probabilità del modello, riducendo l'ambiguità intrinseca alle istruzioni in linguaggio naturale grezzo.
2. I meccanismi dell'attenzione
L'ICL si basa sul meccanismo di attenzione del Transformer per effettuare l'"induzione della funzione". Identificando regolarità nella sequenza fornita, il modello individua una mappa funzionale specifica nel suo spazio ad alta dimensione, permettendogli di emulare stili e strutture con grande precisione.
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.